Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct

نویسندگان

Olivier Sigaud

Freek Stulp

چکیده

Résumé : La résolution de problèmes à états et actions continus par l’optimisation de politiques paramétriques est un sujet d’intérêt récent en apprentissage par renforcement. L’algorithme PI est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l’estimation statistique. Dans cet article, nous considérons PI en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée par les probabilités pour mettre à jour itérativement des paramètres afin d’optimiser une fonction de coût. Nous comparons PI à d’autres membres de la même famille – la « méthode d’entropie croisée » et CMA-ES 1 – au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d’un nouvel algorithme que nous appelons PI-CMA pour « Path Integral Policy Improvement with Covariance Matrix Adaptation ». Le principal avantage de PI-CMA est qu’il détermine l’amplitude du bruit d’exploration automatiquement.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Classification structurée pour l'apprentissage par renforcement inverse

Résumé : Cette contribution traite du problème de l’apprentissage par imitation par le biais de l’apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu’un agent artificiel doit essayer de reproduire. L’ARI part du postulat que l’expert optimise avec succès une fonction de récompense ; le problème consiste à deviner cette fonction à partir de traces du ...

متن کامل

Stratégies d'échantillonnage pour l'apprentissage par renforcement batch

RÉSUMÉ. Cet article présente deux stratégies d’échantillonnage dans le contexte de l’apprentissage par renforcement en mode “batch”. La première stratégie repose sur l’idée que les expériences susceptibles de mener à une modification de la politique de décision courante sont particulièrement informatives. Etant donné a priori un algorithme d’inférence de politiques de décision ainsi qu’un modèl...

متن کامل

Filtrage bayésien de la récompense

Résumé : Une large variété de schémas d’approximation de la fonction de valeur a été appliquée à l’apprentissage par renforcement. Cependant, les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d’autres domaines comme l’apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu’à présent. Cette contribution introduit un cadre de travail géné...

متن کامل

Mesure de similarité pondérée dans l'espace 2D: Application à la reconnaissance de visages

RÉSUMÉ. Cet article propose une nouvelle mesure de similarité pondérée basée sur des matrices pour la classification et la reconnaissance de visages. Le calcul de distances s’effectue entre deux matrices caractéristiques obtenues par deux méthodes bidimensionnelles à savoir l'Analyse en Composantes Principales (ACP2D) et l'Analyse Discriminante Linéaire (ADL2D). Les poids de pondération utilisé...

متن کامل

Apprentissage par Renforcement Inverse pour la Simulation d’Utilisateurs dans les Systèmes de Dialogue

Résumé : Les systèmes de dialogue sont des interfaces homme-machine qui utilisent le language naturel comme medium d’interaction. La simulation d’utilisateurs a pour objectif de simuler le comportement d’un utilisateur humain afin de générer artificiellement des dialogues. Cette étape est souvent essentielle dans la mesure où collecter et annoter des corpus de dialogues est un processus coûteux...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

Revue d'Intelligence Artificielle

دوره 27 شماره

صفحات -

تاریخ انتشار 2013

Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct

نویسندگان

چکیده

منابع مشابه

Classification structurée pour l'apprentissage par renforcement inverse

Stratégies d'échantillonnage pour l'apprentissage par renforcement batch

Filtrage bayésien de la récompense

Mesure de similarité pondérée dans l'espace 2D: Application à la reconnaissance de visages

Apprentissage par Renforcement Inverse pour la Simulation d’Utilisateurs dans les Systèmes de Dialogue

عنوان ژورنال:

اشتراک گذاری